当前位置: 开发笔记 > 编程语言 > 正文

动量|分母_深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

作者：忧愁幻想_824 | 来源：互联网 | 2023-07-10 18:38

篇首语：本文由编程笔记#小编为大家整理，主要介绍了深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）相关的知识，希望对你有一定的参考价值

篇首语：本文由编程笔记#小编为大家整理，主要介绍了深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）相关的知识，希望对你有一定的参考价值。

前言
&＃xff08;标题不能再中二了&＃xff09;本文仅对一些常见的优化方法进行直观介绍和简单的比较&＃xff0c;各种优化方法的详细内容及公式只好去认真啃论文了&＃xff0c;在此我就不赘述了。

SGD
此处的SGD指mini-batch gradient descent&＃xff0c;关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini-batch gradient descent。

SGD就是每一次迭代计算mini-batch的梯度&＃xff0c;然后对参数进行更新&＃xff0c;是最常见的优化方法了。即&＃xff1a;

gt&＃61;∇θt−1f(θt−1)

Δθt&＃61;−η∗gt

其中&＃xff0c;

η
是学习率&＃xff0c;

gt
是梯度

SGD完全依赖于当前batch的梯度&＃xff0c;所以

η
可理解为允许当前batch的梯度多大程度影响参数更新

缺点&＃xff1a;&＃xff08;正因为有这些缺点才让这么多大神发展出了后续的各种算法&＃xff09;

选择合适的learning rate比较困难
对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征&＃xff0c;有时我们可能想更新快一些对于不经常出现的特征&＃xff0c;对于常出现的特征更新慢一些&＃xff0c;这时候SGD就不太能满足要求了
SGD容易收敛到局部最优&＃xff0c;在某些情况下可能被困在鞍点【但是在合适的初始化和学习率设置下&＃xff0c;鞍点的影响其实没这么大】

Momentum
momentum是模拟物理里动量的概念&＃xff0c;积累之前的动量来替代真正的梯度。公式如下&＃xff1a;

mt&＃61;μ∗mt−1&＃43;gt

Δθt&＃61;−η∗mt

其中&＃xff0c;

μ
是动量因子

特点&＃xff1a;

下降初期时&＃xff0c;使用上一次参数更新&＃xff0c;下降方向一致&＃xff0c;乘上较大的

μ
能够进行很好的加速
下降中后期时&＃xff0c;在局部最小值来回震荡的时候&＃xff0c;

gradient→0
&＃xff0c;

μ
使得更新幅度增大&＃xff0c;跳出陷阱
在梯度改变方向的时候&＃xff0c;

μ
能够减少更新

总而言之&＃xff0c;momentum项能够在相关方向加速SGD&＃xff0c;抑制振荡&＃xff0c;从而加快收敛

Nesterov
nesterov项在梯度更新时做一个校正&＃xff0c;避免前进太快&＃xff0c;同时提高灵敏度。
将上一节中的公式展开可得&＃xff1a;

Δθt&＃61;−η∗μ∗mt−1−η∗gt

可以看出&＃xff0c;

mt−1
并没有直接改变当前梯度

gt
&＃xff0c;所以Nesterov的改进就是让之前的动量直接影响当前的动量。即&＃xff1a;

gt&＃61;∇θt−1f(θt−1−η∗μ∗mt−1)

mt&＃61;μ∗mt−1&＃43;gt

Δθt&＃61;−η∗mt

所以&＃xff0c;加上nesterov项后&＃xff0c;梯度在大的跳跃后&＃xff0c;进行计算对当前梯度进行校正。如下图&＃xff1a;

momentum首先计算一个梯度(短的蓝色向量)&＃xff0c;然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)&＃xff0c;nesterov项首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)&＃xff0c;计算梯度然后进行校正(绿色梯向量)

其实&＃xff0c;momentum项和nesterov项都是为了使梯度更新更加灵活&＃xff0c;对不同情况有针对性。但是&＃xff0c;人工设置一些学习率总还是有些生硬&＃xff0c;接下来介绍几种自适应学习率的方法

Adagrad
Adagrad其实是对学习率进行了一个约束。即&＃xff1a;

nt&＃61;nt−1&＃43;g2t

Δθt&＃61;−ηnt&＃43;ϵ−−−−−√∗gt

此处&＃xff0c;对

gt
从

1
到t进行一个递推形成一个约束项regularizer&＃xff0c;

−1∑tr&＃61;1(gr)2

推荐阅读

int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
C#生成随机数的三种方法及其问题分析

本文介绍了C#中生成随机数的三种方法，并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法，但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数，进一步突显了这个问题。文章指出，随机数生成在任何编程语言中都是必备的功能，但Random类生成的随机数并不可靠。最后，提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]

蜡笔小新 2023-12-14 14:15:30
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
import
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
import
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
int
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
python
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
int
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
int
动态规划算法的基本步骤及最长递增子序列问题详解

本文详细介绍了动态规划算法的基本步骤，包括划分阶段、选择状态、决策和状态转移方程，并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中，在以后尽可能多地利用这些子问题的解，从而提高算法的效率。 ... [详细]

蜡笔小新 2023-12-13 15:38:19
int
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
int
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
int
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
int
知识图谱表示吱吱了了

知识图谱表示概念：知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]

蜡笔小新 2023-10-17 17:32:42
int
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52

忧愁幻想_824

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

动量|分母_深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

前言 &＃xff08;标题不能再中二了&＃xff09;本文仅对一些常见的优化方法进行直观介绍和简单的比较&＃xff0c;各种优化方法的详细内容及公式只好去认真啃论文了&＃xff0c;在此我就不赘述了。

Adagrad Adagrad其实是对学习率进行了一个约束。即&＃xff1a; nt&＃61;nt−1&＃43;g2t Δθt&＃61;−ηnt&＃43;ϵ−−−−−√∗gt 此处&＃xff0c;对 gt 从 1 到t进行一个递推形成一个约束项regularizer&＃xff0c; −1∑tr&＃61;1(gr)2 var cpro_id = "u6885494";

前言
&＃xff08;标题不能再中二了&＃xff09;本文仅对一些常见的优化方法进行直观介绍和简单的比较&＃xff0c;各种优化方法的详细内容及公式只好去认真啃论文了&＃xff0c;在此我就不赘述了。

Adagrad
Adagrad其实是对学习率进行了一个约束。即&＃xff1a;

nt&＃61;nt−1&＃43;g2t

Δθt&＃61;−ηnt&＃43;ϵ−−−−−√∗gt

此处&＃xff0c;对

gt
从

1
到t进行一个递推形成一个约束项regularizer&＃xff0c;

−1∑tr&＃61;1(gr)2